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Аннотация 

Введение. Банковский сектор придает большое значение хранению данных, поскольку это критически важный 
аспект бизнес-операций. Объем данных в данной сфере неуклонно растет. С увеличением объемов данных, 
которые необходимо хранить, обрабатывать и анализировать, крайне важно выбрать подходящее решение для 
хранения данных и разработать необходимую архитектуру. Представленное исследование направлено на то, 
чтобы заполнить пробел в существующих знаниях СУБД, подходящих для банковского сектора, а также 
предложить способы для отказоустойчивого кластера хранения данных. Цель работы — анализ ключевых 
СУБД для аналитических запросов, определение приоритетов СУБД для банковского сектора и разработка 
отказоустойчивого кластера хранения данных. Для выполнения требований к производительности и 
масштабируемости предложено решение для хранения данных с отказоустойчивой архитектурой, отвечающее 
требованиям банковского сектора. 

Материалы и методы. Анализ предметной области позволил создать набор характеристик, которым должна 
соответствовать СУБД для аналитических запросов (ОГАР), выполнить сравнение некоторых популярных 
ОГАР СУБД и предложить отказоустойчивую кластерную конфигурацию, написанную на языке хи], 
поддерживаемую СУБД СПсКНоцзе. Автоматизация выполнена с помощью Апз1Ые Р1ауБооК$. Он интегрирован 
с системой управления версиями С\ИаБ и шаблонами Лца. Таким образом достигается быстрое развертывание 
конфигурации на всех нодах кластера. 

Результаты исследования. Для баз данных ОГАР были разработаны критерии, проведен сравнительный 
анализ нескольких популярных систем. В результате была предложена надежная кластерная конфигурация в 
банковской индустрии, которая удовлетворяет требованиям аналитических запросов. Для увеличения 
надежности и масштабируемости СУБД процесс развертывания был автоматизирован. Также приведены 
детальные схемы конфигурации кластера. 

Обсуждение и заключения. Составленные критерии для ОГАР СУБД позволяют определить необходимость 
данного решения в организации. Сравнение популярных СУБД может быть использовано организациями для 
минимизации затрат при выборе решения. Предлагаемая конфигурация кластера хранилища данных для 
аналитических запросов в банковской сфере позволит повысить надежность СУБД и удовлетворить требования 
к последующей масштабируемости. Автоматизация развертывания кластера путем механизма шаблонизации 
конфигурационных файлов в АпУчЫе Р1аубооК$ позволяет настроить готовый кластер на новых серверах за 
минуты. 
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Введение. Хранилище данных в банковской сфере является одним из ключевых бизнес-факторов. Для 
обеспечения безопасности информации о клиентах и транзакциях, необходимо провести меры защиты, 
распределения и создания резервных копий. Для оперативного анализа сотрудники должны иметь возможность 
делать оперативные аналитические запросы в хранилище данных, при этом не мешая работе других процессов 
внутри организации и не вызывая большую нагрузку на само хранилище. Базы данных (РаёаБазе) и хранилище 
данных (Раа У\/агерой$е) — это информационные системы, в которых производится хранение данных, но они 
используются и для решения различных задач. В статье описано, что делают такие системы, в чем основные 
различия между ними и почему их эффективное использование необходимо для развития бизнеса. 

Многие организации допускают ошибки в проектировании архитектуры баз и хранилищ данных, упуская из 
виду аспекты информационной безопасности, масштабируемости и отказоустойчивости. Актуальность этой 
проблемы обусловлена интенсивным развитием систем в банках, расширением сфер их применения и 
увеличением количества данных, нуждающихся в постоянном анализе. Для оперативного анализа большого 
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количества данных необходимо хранилище, которое должно соответствовать всем требованиям надежности и 
безопасности. 

Эффективные процессы принятия решений в бизнесе зависят от качественной информации. В современной 
конкурентной бизнес-среде требуется гибкий доступ к хранилищу данных, организованному таким образом, 
чтобы повысить производительность бизнеса, обеспечить быстрое, точное и актуальное понимание данных. 
Архитектура хранилища данных разработана для удовлетворения подобных требований и является основой 
этих процессов [1—5]. 

Цель работы — определение приоритетной СУБД для выполнения аналитических запросов в банковской 
сфере и проектирование отказоустойчивого кластера хранилища данных. Данное решение существенно 
повысит скорость выполнения аналитических запросов, решит проблемы с масштабируемостью и надежностью 
хранилища данных. 

Материалы и методы. База данных (Ра(аБазе) хранит информацию в режиме реального времени об одной 
конкретной части бизнеса, ее основная задача заключается в обработке ежедневных транзакций. Базы данных 
используют оперативную обработку транзакций (ОГТР) для быстрого удаления, вставки, замены и обновления 
большого количества коротких онлайн-транзакций. 

Хранилище данных (Ра{а \агенойзе) — это система, которая собирает данные из множества различных 
источников внутри организации для составления отчетов и анализа, используя оперативную аналитическую 
обработку (ОГ.АР) для быстрого анализа больших объемов данных. Данная система сосредоточена на чтении, а 
не на изменении исторических данных из множества различных источников, поэтому соблюдение требований 
АСШ (Аюпис, Сопз1\епь 150]ае4 ап Пига Ме) менее строгое. Хранилища данных выполняют сложные 
функции агрегирования, анализа и сравнения данных для поддержки принятия управленческих решений в 
компаниях. 

Хранилище в банковской сфере может содержать: 

— учетную информацию о клиентах (персональные данные, адреса, телефоны); 

— информацию о банковских продуктах и услугах (кредиты, депозиты, пластиковые карточки, мобильный 
банк ит. д.); 

— данные об операциях (включая карточные) в минимальной детализации за последние 3 года; 

— сведения о счетах, остатках на них ит.д. 

Для удовлетворения потребностей в онлайн-аналитической обработке запросов (ОГАР) существуют 
отдельные типы систем управления базами данных (СУБД) [3—6]. Каждая из систем имеет свои особенности в 
построении архитектуры. 

Для проведения эффективного анализа соответствия указанным требованиям хранилища должны: 

— обладать высокой вместимостью, способной вместить огромные объемы данных (миллиарды или 
триллионы строк); 

— быть организованы в виде широких таблиц с множеством столбцов; 

— выполнять запросы с небольшим количеством столбцов; 

— иметь высокую скорость выполнения запросов (в миллисекундах или секундах); 

— предусматривать большую часть запросов только на чтение; 

— поддерживать быструю массовую загрузку данных при их обновлении (более 1000 строк за раз) и 
добавлении, но без их изменения; 

— обладать высокой пропускной способностью для обработки одного запроса (до миллиардов строк); 

— обладать высокой надежностью; 

— обеспечивать безопасность и консистентность данных. 

Для ОГАР-сценария работы в банковской сфере предпочтительнее использовать колоночные 
аналитические СУБД, поскольку в них можно хранить много столбцов в таблице, что не будет сказываться 
на скорости чтения данных. Колоночные СУБД обеспечивают сильное сжатие данных в столбцах, так как в 
одной колонке таблицы данные, как правило, однотипные, чего не скажешь о строке. Они также позволяют 
на более маломощном оборудовании получить прирост скорости выполнения запросов в десятки раз. При 
этом, благодаря компрессии, данные будут занимать на диске в 5-10 раз меньше места, чем в случае с 
традиционными СУБД [7-11]. 

В ходе анализа требований выбраны следующие колоночные СУБД: СПсКНоцзе, Уегиса, Атахоп Вед. 

СИсКНоцзе является предпочтительным решением из-за следующих преимуществ: открытый исходный код; 
есть возможность определять некоторые или все структуры, которые будут храниться только в памяти; высокая 
скорость работы; хорошая степень сжатия данных; Юр и интерфейс командной строки; кластер можно 
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горизонтально масштабировать; высокая доступность; легкость установки и настройки. Установка 
осуществляется на серверах организации в изолированном сегменте, что отвечает требованиям безопасности 
для чувствительных данных в банковской сфере. Также СУБД включена в реестр отечественного программного 
обеспечения, поэтому позволяет внедрять данный программный продукт в государственные компании. 

Решение Ататоп Кедз ШИ предоставляется только в виде облачной службы. Для организаций из банковского 
сектора, которые не могут размещать свои данные в облаках по ряду причин, связанных с безопасностью, 
данный продукт теряет свою привлекательность. 

\Уегаса является альтернативным вариантом СПсКНоизе с платной лицензией для крупных кластеров и 
возможностью установки на локальные серверы компании. 

Ниже представлена реализация архитектуры распределенного хранилища данных. Для повышения 
отказоустойчивости и производительности предлагается реализация распределенного отказоустойчивого 
кластера СПсКНочзе с 3 шардами и 2 репликами. 

Шардинг (горизонтальное масштабирование) позволяет записывать и хранить части данных в 
распределенном кластере, обрабатывать и считывать их параллельно на всех нодах кластера, увеличивая 
пропускную способность данных. 

Репликация — копирование данных на несколько серверов, поэтому каждый бит данных можно найти на 
нескольких нодах. 

Масштабируемость определяется шардированием или сегментацией данных. Надежность хранилища 
данных определяется репликацией данных [12—16]. 

Шардирование и репликация полностью независимы, за них отвечают разные процессы. Необходимо 
локализовать небольшие наборы данных на одном шарде и обеспечить достаточно ровное распределение по 
разным шардам в кластере. Для этого в качестве ключа шардирования рекомендуется брать значение хэш- 
функции из поля в таблице. 

В зависимости от количества доступных ресурсов и серверов, предлагается реализовать эту конфигурацию 
на 3 или 6 нодах. Для производственной среды рекомендуется использовать кластер из 6 нод. Следует 
отметить, что репликация не зависит от механизмов шардирования и работает на уровне отдельных таблиц, а 
также, поскольку коэффициент репликации равен 2, то каждый шард представлен в 2 нодах [17-19]. Ниже 
описаны варианты конфигурации. 


Схема логической топологии выглядит следующим образом: 

З(Шард) х 2(Реплики) = Кластер СИсКВочзе из 6-ти нод. 

Вероятность безотказной работы системы с 2 репликами и 3 шардами на 6 нодах равна: 

в =[1-(-р)?. 

Вероятность безотказной работы — это объективная возможность того, что система без восстановлений 
проработает время # [7, 13]. 

Таким образом, таблица, содержащая 30 миллионов строк, будет распределена равномерно на 3 ноды 
кластера. Остальные 3 ноды будут хранить реплики данных. При выводе из строя одной из нод кластера, 
данные будут браться из другой доступной ноды, которая содержит ее реплику, тем самым достигается 
надежность [20]. Кластер из 6 нод изображен на рис. 1. 


поде 01 по4е 02 поде 03 


зВага 01 зВага 02 зВага 02 
терНса 01 терНса 01 терНса 02 


по4е 04 по4е 05 по4е 06 


звага 03 зВага 03 зВага 01 
герИса 01 герИса 02 герПса 02 


Рис. 1. Отказоустойчивый кластер из 6 нод 
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Для репликации данных и выполнения распределенных ООГ, запросов необходимо использовать +1 ноду с 
установленным ГооКеерег. Можно использовать также СПскНоизе Кеерег, совместимый с ГооКеерег, не 
требующий установки на отдельном сервере. 

Пример фрагмента конфигурационного файла представлен на рис.2, из которого видно, что шарде 
настроена репликация для 1-ой и 6-ой ноды. 

<уапдех> 


<гетоте_зегуег$> 
<сТи$фег_1> 


<5пага> 
<ме198т>1</ме19Н+> 
<1пфегпа\_гер11са{1оп>{гие</1п%егпа\_гер11са{1оп> 
<гер11са> 


<|1о$1>4{ поде1 }}</во$+> 
<рог{>9000</рог+> 
</гер\1са> 
<гер11са> 
<по$1>{{ подеб }}</по$+> 
<рог{>9000</рог+> 
</гер11са> 
</зПага> 


Рис. 2. Фрагмент конфигурационного файла для 6 нод 


Вариант конфигурации кластера из трех нод с цикличной репликацией изображен на рис. 3. 
поде 01 по4е 02 поде 03 


зВага 03 
терНса 01 


звага 01 


терНса 01 Е 


терНса 01 


звага 02 


зрага 03 звага 01 


терНса 02 терНса 02 терНса 02 


Рис. 3. Отказоустойчивый кластер из 3 нод 


Для такой реализации требуется два разных сегмента, расположенных на каждой ноде. Основная проблема 
возникает из-за того, что каждый шард имеет одинаковое имя таблицы, СИсКкНоцзе не может отличить один 
шард/реплику от другого, когда они расположены на одном сервере. 

Для решения данной проблемы необходимо: 

— поместить каждый шард в отдельную базу данных (схему); 

— установить деРаш_АабаБазе для каждого шарда; 

— установить параметр и\цегпа! герПсайоп каждого шарда в ие; 

— использовать пустой параметр базы данных в сценарии РОГ, распределенной таблицы. 

Для такой топологии в промышленной среде требуется 6 серверных нод, где каждый сервер хранит данные 
только одного сегмента, обходной путь для отдельной базы данных не требуется. Для экономии ресурсов в зоне 
разработки или тестирования можно использовать конфигурацию с 3 нодами. 

Автоматизация выполнена с помощью Ап е Р!аубооК$ и интегрирована с системой управления версиями 
СлИаБ. Таким образом достигается быстрое развертывание конфигурации на всех нодах кластера. При 
изменении конфигурации ее можно применить на всех нодах с помощью одной команды или развернуть новый 
кластер СУБД за несколько минут [21]. 


В.В. Сивов и др. Отказоустойчивый кластер хранилища данных для аналитических запросов в банковской сфере 


Результаты исследования. Отказоустойчивый кластер аналитической СУБД обеспечивает резервирование 
для важных компонентов системы, что позволяет продолжительно функционировать даже в случае 
возникновения ошибок в отдельных узлах кластера. Это делается за счет распределения нагрузки, репликации 
данных между узлами кластера и высокой надежности компонентов, используемых в кластере. Результатом 
является увеличение доступности и надежности аналитической СУБД, что важно для бизнеса, в котором 
аналитические запросы играют ключевую роль. Отказоустойчивая кластерная конфигурация хранилища 
данных для аналитических запросов в банковской сфере с учетом автоматизации процесса разворачивания 
позволяет повысить надежность аналитического хранилища данных и удовлетворить требования к 
масштабируемости. Разработанная задача по автоматизации развертывания кластера с использованием 
механизма шаблонизации конфигурационных файлов в Апзе Р!аурооКз$ позволяет настроить готовый кластер 
на новых серверах за несколько минут. В задачи шаблона входят операции по установке необходимых пакетов, 
созданию необходимой конфигурации и запуску кластера. 

Пример конфигурационных файлов для автоматического развертывания кластера СУБД приведен на рис. 4. 
Расширение ]2 говорит о том, что они созданы с помощью механизма шаблонов Липа. Специальные 
заполнители в шаблоне позволяют писать код, аналогичный синтаксису Руфоп. В шаблон передаются 
параметры для автоматической вставки в финальный документ, тем самым достигается автоматическая сборка 
в зоны разработки, тестирования и промышленной эксплуатации, которая не требует ручного изменения 
файлов конфигурации. 

у 1етр!а{е$ 

сйскпоизе_сопЯд.хт|.]2 
сИсквоцзе_Кеерег.хгт|.]2 
сИскпоц$е_1Чар_ацщВ.хпп!.]2 
сИсквоцзе_1Чар_изег_атес{огу.хт!.]2 
сИсквоц$е_тасго_п1.хт|.]2 
сИскпои$е_тасго_п2.хп|.]2 
сИскпоц$е_тасго_п3.хт|.]2 


сИскпои$е_тасго_п4.хг|.]2 


сИскпои$е_тасго_п5.хи|.]2 


сИсквоцзе_тасго_пб.хпп.]2 


сИскпоц$е_изег$.хпп|.]2 


си${ег.хт|.]2 


Рис. 4. Конфигурационные файлы 


Описание конфигурационных файлов: 

сПсКвойзе_сопНз.хп1.]2 — общая конфигурация кластера; 

сПсКвоизе_Кеерег.хп11.]2 — конфигурация 7ооКеерег, которая отвечает за синхронизацию нод и репликацию; 

сИскпопзе_1Чар_аи.хп1.]2 — конфигурация подключения к ГРАР для обеспечения безопасности данных; 

сПсКвопзе_1Чар_изег_(тесогу.хп11.]2 — конфигурация с ролевой моделью по группам доступа для 
обеспечения безопасности данных; 

сИскпоцзе_тасго_п1(6).хп1.]2 — файлы макросов (для каждой ноды свой); 

сИскпоцзе_изегз.хп.]2 — конфигурационный файл создания локальных пользователей, необходимых для 
администрирования; 

сшазбег.х111.]2 — конфигурационный файл кластера. 

Для проверки надежности данной конфигурации проведен эксперимент, в ходе которого были загружены 
данные в кластер СУБД с коэффициентом репликации, равным 2. Созданы схемы 4\ и таблицы 
сТаз(ег_(езЕ Чайа на каждой из нод кластера СУБД, а также создана распределенная таблица на кластере 
амВ.саз{ег_1е5_ Чаба_ 41зи1Ьщед. Строки таблицы 4\0.4е${_ 4аа_ 1516 ще4, распределенной по кластеру, 
равны 27 547 855. Ниже перечислены строки таблицы 4\В.стаз(ег {ез(_айа с каждой из нод кластера: 

9186544 строк — 1-ая нода; 

9182959 строк — 2-ая нода; 

9182959 строк — 3-я нода; 

9178352 строк — 4-ая нода; 

9178352 строк — 5-ая нода; 

9186544 строк — 6-ая нода. 

Как можно заметить, таблица распределилась на весь кластер. Согласно конфигурации, приведенной на 
рис. 1, коэффициент репликации равен 2, значит, каждый блок данных будет представлен на 2 нодах. Это 
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можно увидеть из количества строк на нодах: шестая нода хранит копию первой, третья — копию второй, 
пятая — копию четвертой. 

Отказоустойчивость данной конфигурации можно проверить попеременным выводом из строя нод в 
кластере. Для этого можно выключить ноду или остановить сервисы на одной из нод командой зузетсй юр 
сПсКвоцзе-зегуег. В ходе эксперимента была выполнена остановка сервисов СУБД на нодах кластера. 

При одновременном отключении 3, 4, 6-ой или 1, 2, 5-ой нод, которые содержат реплики, пользователи 
продолжали получать данные из таблицы А\В.саз{ег_1ез_ аа_ Ч1зи1Ьщеа, и количество строк было 
равным 27 547 855. При выводе из строя одной из нод, данные продолжали отображаться, а количество строк 
было равным 27 547 855. При одновременном отключении нод, которые содержат реплику и оригинальные 
данные, происходила потеря данных. Данную конфигурацию можно масштабировать на 12 нод, тогда 
коэффициент репликации будет равен 3, а коэффициент шардирования — 6. 

Обсуждение и заключения. Предлагаемое решение может повысить скорость выполнения аналитических 
запросов, решить проблемы с масштабируемостью и надежностью хранилища данных в организациях 
банковской сферы. Авторами выполнена автоматизация развертывания кластера путем шаблонов в Ап Ые 
Р1аурооКз$, которая позволяет настроить готовый кластер на новых серверах за минуты. Данную конфигурацию 
можно масштабировать, увеличив количество нод и добавив их в конфигурационные файлы. 

Обозначен набор характеристик, которым должна соответствовать ОГАР СУБД, выполнено сравнение 
СУБД, предложена отказоустойчивая кластерная конфигурация хранилища данных для аналитических запросов 
в банковской сфере, выполнена автоматизация процесса разворачивания конфигурации. Подобное решение 
применимо для развертывания на ЕгееВЗО, Глпах, тасОЗ. Приведены схемы конфигурации кластера. Данная 
конфигурация решит проблему, связанную с надежностью и масштабируемостью, которая часто встречается в 
организациях. 
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